AI资讯新闻榜单内容搜索-ICLR

ICLR 2026 | 让多模态模型学会主动说话：主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文，介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复，而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark，MMDuet2 则通过强化学习训练方法实现了 SOTA 性能，无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报

9347 点击 2026-03-30 15:02

ICLR 2026 | ESC — 解构一步生成，厘清细节，探寻本质

近期，基于捷径化概率流路径（shortcut probability flow trajectory）并从头训练的一步扩散生成模型，展现出强大的实证有效性。然而，这类方法的提出通常建立在较为复杂的理论推导之上，并且往往与具体实现细节高度耦合。这带来一个直接的问题：究竟哪些设计是方法成立的本质要素，哪些又只是可以灵活替换的实现组件。

来自主题: AI技术研报

7784 点击 2026-03-24 17:19

ICLR 2026 | Shop-R1: 给AI补上「内心戏」，在RL博弈中复刻人类网购脑

传统的 AI 购物助手更像是一个任务完成机器：接到指令，搜索，下单。他们或许能跑通流程，却完全无法理解用户为何在最后一刻因为一条关于 “夹耳朵” 的差评而放弃支付。简而言之，传统的电商 Agent 只是任务导向的（task-oriented），而不是模拟导向的（simulation-oriented）。为此，来自亚马逊（Amazon）的研究团队提出了名为 Shop-R1 的训练框架。

来自主题: AI技术研报

7943 点击 2026-03-21 09:28

ICLR 2026｜首个微观世界模型MicroVerse来了，AI开始模拟看不见的世界

过去两年，世界模型（World Model）正在成为大模型演进的重要方向。

来自主题: AI技术研报

10381 点击 2026-03-19 15:17

ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

近年来，多模态大模型（Multimodal Large Language Models, MLLMs）正在迅速改变人工智能的能力边界。从图像理解到视频分析，从语音对话到复杂推理，大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答：这些模型真的能够理解人类情绪吗？

来自主题: AI技术研报

7480 点击 2026-03-16 14:27

ICLR 2026 | LongHorizonUI：让 GUI 智能体不再"半途而废"——面向长链路任务的统一鲁棒自动化框架

在移动端和桌面端的日常使用中，许多操作并非点一下按钮就能完成。预订一场会议、在游戏商城中购买并装备一件道具、又或者在多个应用之间完成一组连贯的工作流 —— 这些任务通常需要十几步甚至几十步的连续交互。

来自主题: AI技术研报

6957 点击 2026-03-13 09:57

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

NUS、ZJU、UW、Stanford、CUHK 联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型，视觉推理平均提升 34.74%，多项任务比肩甚至超越 GPT-4o 和 Gemini 2.5 Flash。

来自主题: AI技术研报

8195 点击 2026-03-11 09:22